Проектная работа "Исследование рынка заведений общественного питания Москвы"

Выполнил: Киселев Дмитрий

Описание задачи:

Инвесторы из одного фонда решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Необходимо подготовить исследование рынка, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего места. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар — и какими будут расположение, меню и цены. Более детально следует сфокусироваться на кофейнях.

Нам доступен датасет с заведениями общественного питания Москвы, составленный на основе данных популярных сервисов на лето 2022 года. Информация могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.

Описание данных

Оглавление

  1. Открытие данных
  2. Предобработка данных
  3. Анализ данных
  4. Категория кафейни, выбор локации
  5. Приложение презентация

Шаг 1. Открытие файла с данными и изучение общей информации

Всего в датасете 14 столбцов, 8406 строк, есть пропуски в часах работы, категории цен, среднем чеке, стоимости кофе среднего размера, числе посадочных мест. Большинство столбцов в текстовом и числовом формате, следует поменять форматы для категориальной chain на boolean

Шаг 2. Предобработка данных

Имеется 3 дубликата по адресу и имени - это совсем несущественно, а по координатам несколько заведений оказываются в одном месте (максимум 3), одинаковых имен нет. В среднем длина одного градуса широты равняется примерно 111 км. То есть, между 52° с.ш. и 53° с.ш. будет расстояние 111 км. Точность координат 6 знаков после целочисленных градусов - это 0,111 метра. Скорее это нормально для высокой городской плотности заведений, плюс они могут соседствовать в одном здании.

Замечаем дубли для названий "Кафе" "Хинкальная" и тд. Это может быть связано с особенностью открытого сбора данных от пользователей. Известно что всего они составляют 429 записей, удаляем их позднее в этом разделе фильтрация датасета. Влияние на общие и частные выводы несущественно, все таки это должны быть различные заведения.

Также в столбце категорий заметно, что в некоторых случаях одним и тем же заведениям соответствует несколько категорий. Это может быть верно при наличии определенных критериев в документации датасета, если же это момент сбора информации от пользователей, то в обоих случаях решением для исследования может стать вычисление моды категорий (выбираем ту категорию, которая встречается чаще).

Изучим распределение пропусков по регионам Москвы чтобы иметь полное представление о качестве финальной выборки, также это поможет решить вопрос о заполнении пропусков. У заказчика ислледования нет требований по районам, поэтому требуется сделать комплексную оценку данных, чтобы дать полноценную рекомендацию о локации для открытия заведения.

Чтобы нагляднее работать с графиками дадим сокращенные названия районам - для этого сформируем аббревиатуры по заглавным буквам названия района + добавим АО (Административный Округ). Новые названия подтянем в основную таблицу с похожим названием.

Всего получилось 9 районов

Пропуски распределены по районам одинаково, согласно общему распределнию записей - ЦАО везде выделяется в количестве в 2 раза или больше, кроме данных по часам работы. Два столбца с пропущенными данными являются производными avg_bill - средний чек и цена капучино. Заполнять эти три показателя не стоит - они количественные, а avg_bill и price имеют текстовый формат. Будем воспринимать наличие информации - ценным справочным разрезом для некоторого количества данных, а пропуски - особенностью заполнения детализированной информации пользователями сервисов.

Другие пропуски в посадке и времени работы не так многочислены, но также не подаются заполнению по исходной таблице. В целях получения наиболее точных выводов оставим данные как есть, чтобы не усреднять статистику по категориям. Заменим NaN на 'Unknown' для категориальных.

В финале оставляем датасет с пропусками в справочных столбцах по стоимости. Прочие пропуски зафиксированы категорией Unknown. Добавлены сокращенные названия районов и два столбца с названием улицы и обозначением работы круглосуточно ежедневно.

Шаг 3. Анализ данных

Всего в записях 8 категорий, они довольно разные. Сделаем сводную таблицу и посчитаем 4 метрики, они пригодятся для изучения рынка заведений. Затем представим результаты визуально.

Сначала изучим популярность форматов - этому показателю соответствует общее количество заведений. Возьмем данные чтобы построить treemap: далее в осях графика это a - популярность, b - формат.

Больше всего в Москве распространены форматы кафе, ресторана, кофейни. Почти одинаково много пиццерий, баров и точек фастфуда. Самые малочисленные это булочные и столовые. Перейдем к другим показателям по форматам - доле сетей, среднему рейтингу и медиане посадочных мест

Самая высокая медиана посадочных мест > 85 человек у ресторанов. Самые маленькие форматы у булочных и пиццерий - они также самые сетевые. Большая посадка у баров, пабов и в кофейнях и столовых - вполне логично, скорее всего для таких форматов более важно количество гостей и они могут занять большую площадь. Средняя посадка у кафе в 60 человек - для экономики заведений важно не только максимизировать чек, но и снижать затраты. Посмотрим поближе как устроены заведения питания Москвы, учитывая сетевые точки.

Более половины заведений в категориях булочные, пиццерии и кофейни - сети. От 33% до 38% сетевых заведений в кафе, ресторанах и фастфуде. Бары и столовые самые несетевые, доля менее 28%.

Усредненные рейтинги по категориям отличаются несильно - в сервисе достаточно высокие оценки пользователей, максимальный рейтинг у баров ~ на 10% выше самого минимального бала 4.05 у фастфуда. В следующей группе с рейтингом выше среднего в категориях - булочные, кофейни, пиццерии, рестораны - у них в районе 4.3. Самые средние оценкии у столовых - 4.2, после идут кафе с 4.12, немного обгоняя фастфуд. Похоже в Москве любят бары и здесь не хватает более качественного фастфуда.

Теперь сгруппируем данные по названиям заведений и найдем топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе.

В таком разрезе становится понятно, что в датасете есть скрытые дубликаты с неизвестными названиями - таких набирается целых 189 шт, где в названии указано "кафе". В дальнейшем для фильтрации таких случаев используем комбинацию "не сеть" с количеством заведений > 0. Отметим, что самые популярные это кофейни и пиццерии, скорее всего их популярность объединяется с признаком невысокого чека по имеющимся данным. Уточним распределение данных по признаку среднего чека (всего 3816 записей).

Таким образом самые популярные заведения это кофейни и кафе , 3 ресторана, пара пиццерий, и одно заведене из булочных тоже в топе. Скорее всего на популярность влияет и средний чек - распределение показателя свидетельствует о двух популярных пиках в данных - в районе 400 и 600 руб

Будет логично удалить из датасета некачественные записи, которые могут повлиять на статистику в разрезах по сетям. На распределение исключение такого количество в поле district влияет не сильно - максимальная доля не превысит 10% от категории для кафе и быстрого питания, общие выводы популярности категорий остаются прежними.

Итого из датасета было удалено 429 записей или 5.1%, что не так много, продолжим изучение. Теперь попробуем более детально изучить ситуацию по районам города - это должно помочь определиться с локацией будущего заведения.

Подготовим данные в виде свободной таблицы чтобы, изобразить распределение категорий по районам в виде heatmap. Более яркие участки будут означать более высокую концентрацию на пересечении разрезов.

Построим график распределения

Наибольшая концентрация заведений - рестораны в центральном районе Москвы. Помним этот район лидирует во всех категориях по числу заведений. Интересно, что многочисленные кафе распределены по районам достаточно равномерно по 208-250 заведений на район, кроме ЦАО (где наибольшее количество) и СЗАО (наименьшее кол-во заведений).

Самые высокие рейтинги у заведений в центре, средние повсюду, кроме юго-востока.

Итак, самая густонаселенная локация - проспект Мира. Проспекты и шоссе в рейтинге вообще в избытке - это длинные участки, где сосредоточено множество заведений. Выделяются концентрацией кафе на МКАДе - есть такая потребность в дороге и там отсутствуют бары, булочные и пиццерии. На топ-15 улицах совсем малое количество булочных, столовых. Посмотрим на распределение на улицах, где по записям лишь одно заведение.

На улицах с одним заведением такие же лидеры - кафе,рестораны,кофейни. Но здесь меньше пиццерий, компактнее заведения, похожее распределение чека с двумя притяжениями 500-700 и 1400-1700 руб. Изучим как выглядят районы по среднему чеку, с учетом имеющихся данных. Положим окраску на карту.

Самими дорогими оказались ЦАО и ЗАО. Самые доступные заведения можно встретить в ЮВАО, ЮАО и СВАО

Чтобы ответить на вопрос о наличии связи между удалением от центра и величины среднего чека следует подготовить данные. Можно наглядно увидеть связь на скатер графике, для этого заведем переменную удаление от центра - distance. Для каждого объекта она будет вычисляться как сумма разностей в градусах ширины и долготы от центральной точки Москвы (moscow_lat, moscow_lng = 55.751244, 37.618423).

В осях графика дистанция и средний чек, наклон графика линейной регрессии говорит о наличии тенденции в данных - чем дальше от центра, тем дешевле. Сопутствующие распределения свидетельствуют, что с удалением от центра равномерно сокращается количество заведений. А для среднего чека - снова видим локальные максимумы 300-500 руб и 1000-1500.

Интересной особенностью также является положительная зависимость цен в заведении и его рейтинга - значит оценки пользователей теоретически могут здорово влиять на спрос, это важная закономерность для успешного заведения любого формата.

Общий вывод

В ходе исследования были изучены заведения общественного питания города Москвы почти по 8000 записям по состоянию на лето 2022 года(9 районов, 8 категорий). Обладая полными данными о местонахождении и категории заведения удалось понять распределение и популярность на карте города по районам. 27% заведений находятся в ЦАО, в остальных районах распределение равномерное по 8-10% от общего числа, меньше всего точек в СЗАО - 5%. Сети составляют 38% всех заведений, а в булочных, кофейнях и пиццериях таких более 50%. У последних трех категорий средний рейтинг выше среднего. Самый популярный формат кафе, ресторанов и кафеен обычно расчитан на прием гостей минимум на 20% больше, чем самые компактные булочные с медианой посадки 50 человек.

Итак, заведения питания характеризуются крайне высокой плотностью в центральной части, однако присутствуют и большие скопления вдоль проспектов и шоссе. Используя данные из общедоступных сервисов удается сделать дополнительные выводы о среднем чеке заведения (3094 записи в итоговой выборке). На общих данных существуют два выраженных притяжения среднего чека - 400 руб и 1300 руб. Самым популярным заведениям по количеству точек как раз соответсвуют такие цены, можно считать их средними для любых форматов. Также топ-3 формата из 15 самых популярных сетевых заведений по количеству точек оказались кофейни, рестораны и пиццерии - самые востребованные форматы у горожан. Не обращаясь в детали по карте концентрации заведений следует отметить достаточно равномерное распределение самых популярных форматов кафе, рестороранов и кофеен по районам с одинаковой посадкой в СЗАО (опуская самый популярный ЦАО). Чтобы лучше понять распределение по районам следует обогатить данные посетителями. Тогда можно будет сравнить относительные показатели и понять недостаток/избыток заведений на посетиля в среденем.

В топ-15 проходных улиц с заведениями попал МКАД с множеством кафе, а в лидерах по общему числу - проспект Мира, Профсоюзная и проспект Ленина. В данных сервиса достаточно высокие оценки пользователей, максимальный рейтинг у баров ~ на 10% выше самого миинимального бала 4.05 у фастфуда. В следующей группе с рейтингом выше среднего в категориях - булочные, кофейни, пиццерии, рестораны - у них в районе 4.3. Самые средние оценкии у столовых - 4.2, после идут кафе с 4.12, немного обгоняя фастфуд. Похоже в Москве любят бары и здесь не хватает качественного фастфуда. По районам в рейтингах выделяется только ЦАО - выше среднего и ЮВАО - ниже среднего. При помощи визуализации удалось установить положителньую линейную зависисимость между рейтингом и чеком: лучше рейтинг, выше чек, разметка в среднем чеке коррелирует с картой рейтингов с разницей по району ЗАО (переоценен в чеке) и СВАО (недооценен). Также средний чек падает по мере удаления из центра.

Шаг 4. Детализируем исследование: открытие кофейни

Задача : Определить лучшие параметры для открытия доступной кофейни. Заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно.

Больше всего кофеен находится в ЦАО и САО, наименьшее в СЗАО (смотреть График распределения). Эта категория сильно централизована как и рестороны - сконцентрированое множество заведений центра минимум в 2-3 раза превосходит количество в остальных районах. Кофейни городской среды следуют за кафе и ресторанами - как ближайшая альтернатива по месту приема пищи и пребывания. Это также заметно ниже на графике распределения плотности значений дистанции кофеен от центра. Средний рейтинг кофе точки 4.28 почти совпадает с медианой, разброс в оценках достаточно низкий. Имея под руками рейтинги из других городов можно было сделать вывод об удовлетворенности потребителей. В целом можно судить, что оценки достаточно высоки по 5-ти бальной шкале.

В осях удаленности и средней стоимости чашки кофе видим несколько очагов. Во-первых из-за большого скопления кофеен в центре ярко выражается три категории цен - около 100 руб, 150-180 руб и 250 руб - скорее всего так влияет ассортимент американо/капучино или размер стаканчика. Более глобальный вывод такой же как и со всеми ценами для заведений - с удалением средняя цена падает из области 150-250 руб к 120-180 руб. Поэтому расположение точки будет заставлять подстраиваться под локальные рыночные цены.

Похожий на общий вывод по среднему чеку - чем выше рейтинг, тем выше и цена за чашку. Но надо обратить внимание, что наклон кривой не такой сильный, как графике общего чека. Количества наблюдений вполне достаточно - записи о ценах есть у 534 заведений из 1392 в выборке. Изучим круглосуточные точки с кофе.

Круглосуточные кофейни преобладают в ЦАО, концентрация заведений заставляет ловить там покупателя кофе каждую минуту. Преимущественно в таком режиме работают сетевые кофейни - они способны поглощать издержки и оптимизировать ночной график работы. Достаточно много таких кофеен также в ЗАО - там рейтинг на низкой отметке при среднем в 4.3, видимо присутствует недовольство потребителей. Также заведения там гораздо меньше по площади посадки.

Похоже что-то не так со всеми заведениями в ЗАО - единственный район, который выделяется по параметру рейтинга вниз. Может как раз здесь не хватает точки с хорошим кофе и обслуживанием?

Сверху на диаграмме средние по районам выстроились в линию достаточно наглядно - выпадает уже известный ЗАО, здесь ситуация с оценками действительно похуже. При этом не так велик размах между 25 и 75 квантилей (по сравнению с ЮВАО и САО), т е здесь оценки присваиваются в одном диапазоне стабильнее. Самые хорошие отзывы в ЦАО и СЗАО - 25% ото всех заведений имеют оценку ниже 4.25

Имеющийся набор данных позволяет ознакомится с устройством сферы заведений общественного питания г. Москвы, подчеркнуть закономерности в структуре, включая географические признаки. Однако полный вывод и рекомендацию об открытии точки следует делать на основе комплексной оценки вместе с прогнозом доходности, затрат и обогощенной информации по посетителям/жителям района, проходимости на улице и подобное. Рекомендации по локации относительно отзывов, рейтингов и среднего чека за кружку кофе - ЗАО.

Это достаточно населенный кофейнями район (не учитывая ЦАО), что подразумевает наличие конкуренции (этого как раз не боятся заказчики). В свою очередь выбор района дает ряд преимуществ - чек здесь выше среднего и не хватает нового заведения на 5 баллов, чтобы исправить выпадающую из ряда высоких оценок города ситуацию в районе. Хорошие оценки пользователей могут быть напрямую связаны с успешностью предприятия, особенно на старте. Далее необходимо отталкиваться от опыта в его организации и размахе. Это может быть сетевое заведение - у них похуже с рейтингом, но есть и свои плюсы. В кофейнях 1/3 всех заведений сетевые. При открытии следует расчитывать на цену одной чашки по более низкому среднему диапазону - все таки удаленность от ЦАО тоже работает. Это примерно 150-180 рублей.

Возможно лучше всего располагать кофейню рядом с действующими кафе и ресторанами - это соотвествует общему распределению в категориях. Если следовать логике конкуренции с другими кафе за качество и количество - то могут подойти улицы с большим ценником из таблицы топ-10: Ярцевская улица с более низким рейтингом и высоким чеком или всерьез заняться самым низким рейтингом на Верейской улице. Также действенной стратегией может стать открытие точки на Рублевском шоссе - здесь только сети. А распределение рейтингов на boxplot свидетельствует что у несетевых точек получается лучше удовлятворять спрос потребителей на кофе, а значит и извлекать прибыль.

Московский рынок явно насыщен кофейнями (в топ-3 категории), особенно относительно других городов России, так как кофе является неотъемлемой частью деловой среды. Поэтому стратегия "делай лучше, чем другие" вполне способна себя оправдать для района ЗАО - выявленные факты из датасета подтверждают благоприятную возможность.

Шаг 5. Приложение презентация

Презентация: https://disk.yandex.ru/i/uE1t8QgqdLfTZg